Qualidade de Vinhos Tintos por Nailson dos Santos

Seção de Gráficos Univariados

Análise individual dos fatores do conjunto de dados

Inicialmente serão plotados os histogramas para avaliar a distribuição dos fatores observados em cada uma das amostras de vinho tinto.

Avaliando os gráficos gerados pode-se perceber que as variáveis density e pH têm distribuição normal.

Em contrapartida, fixed.acidity, volatile.acidity, residual.sugar, chlorides, free.sulfur.dioxide, total.sulfur.dioxide e sulphates têm cauda longa.

Esses fatores terão suas distribuições e correlações estudadas mais à frente.

Variável dependente

A variável quality será utilizada como variável dependente. O estudo será feito a partir de outras variáveis que serão analisadas com relação à quality.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.000   5.000   6.000   5.636   6.000   8.000

Criando uma classificação baseada na qualidade dos vinhos

Dado que a variável quality apresenta apenas números inteiros, ou seja, não teremos vinhos classificados com qualidade 6.8, por exemplo, serão criadas categorias de classificação de vinhos.

Os vinhos estão classificados em uma escala de 0 a 10, sendo 0 a pior classificação de qualidade e 10 a melhor.

No dataset estudado, a maioria dos vinhos estão classificados com qualidade 5 e 6. A pior qualidade observada foi 3 e a melhor foi 8.

Desse modo, os vinhos serão categorizados em:

  1. ruim -> vinhos com notas de 0 a 4
  2. bom -> vinhos com notas de 5 a 7
  3. excelente -> vinhos com notas de 8 a 10

No gráfico Categorias temos a distribuição dos vinhos distribuídos nas categorias, ruim, bom e excelente.

No gráfico Categorias e qualidade temos a mesma representação do gráfico anterior, mas com a exibição também das quantidades que aparecem em cada uma das categorias.

Variáveis independentes

A seguir, as variáveis independentes serão analisadas com relação à variável dependente quality. O objetivo é observar a distribuição e, principalmente, a correlação que cada ume tem com a variável dependente quality. Isso servirá como base para as análises, porque as maiores correlações indicam maiores influência no fator qualidade. Os gráficos das variáveis independentes apresentados a seguir já consideram a transformação logarítmica, quando necessária, em cada caso.

Acidez Fixa - fixed.acidity

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    4.60    7.10    7.90    8.32    9.20   15.90
## [1] "Correlação da Acidez Fixa com a Qualidade:  0.124051649113224"

A variável de Acidez Fixa tem distribuição próxima de log-normal.

Sua correlação com a variável dependente Qualidade é de 0,12 e é considerada baixa Portanto, não será avaliada.


Acidez Volátil - volatile.acidity

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.1200  0.3900  0.5200  0.5278  0.6400  1.5800
## [1] "Correlação da Acidez Volátil com a Qualidade:  -0.390557780264007"

A variável de Acidez Volátil tem distribuição próxima de normal com alguns picos, mas não caracteriza bimodal.

Sua correlação com a variável dependente Qualidade é de -0,39 e é considerada moderada. Portanto, será avaliada.


Ácido Cítrico - citric.acid

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   0.090   0.260   0.271   0.420   1.000
## [1] "Correlação de Ácido Cítrico com a Qualidade:  0.226372514318041"

A variável de Ácido Cítrico não tem distribuição normal.

Sua correlação com a variável dependente Qualidade é de 0,23 e é considerada moderada. Portanto, será avaliada.


Açúcar Residual - residual.sugar

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.900   1.900   2.200   2.539   2.600  15.500
## [1] "Correlação de Açúcar Residual com a Qualidade:  0.0137316373400663"

A variável de Açúcar Residual tem distribuição log-normal enviesada para a direita com long tail e muitas exceções.

Sua correlação com a variável dependente Qualidade é de 0,01 e é considerada fraca. Portanto, não será avaliada.


Cloretos - chlorides

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.01200 0.07000 0.07900 0.08747 0.09000 0.61100
## [1] "Correlação de Cloretos com a Qualidade:  -0.128906559930053"

A variável de Cloretos tem distribuição log-normal enviesada para a direita com long tail e muitas exceções.

Sua correlação com a variável dependente Qualidade é de -0,13 e é considerada fraca. Portanto, não será avaliada.


Dióxido de Enxofre Livres - free.sulfur.dioxide

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1.00    7.00   14.00   15.87   21.00   72.00
## [1] "Correlação de Dióxido de Enxofre Livres com a Qualidade:  -0.0506560572442764"

A variável de Dióxido de Enxofre Livres tem distribuição normal enviesada para a direita, com alguns picos e com long tail e exceções.

Sua correlação com a variável dependente Qualidade é de -0,05 e é considerada fraca. Portanto, não será avaliada.


Dióxido de Enxofre Total - total.sulfur.dioxide

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    6.00   22.00   38.00   46.47   62.00  289.00
## [1] "Correlação de Dióxido de Enxofre Total com a Qualidade:  -0.185100288926538"

A variável de Dióxido de Enxofre Total tem distribuição próxima de log-normal com poucas exceções.

Sua correlação com a variável dependente Qualidade é de -0,18 e é considerada fraca. Portanto, não será avaliada.


Densidade - density

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9901  0.9956  0.9968  0.9967  0.9978  1.0037
## [1] "Correlação de Densidade com a Qualidade:  -0.174919227783349"

A variável de Densidade tem distribuição normal. Apresenta exceções nas duas extremidades de amostras.

Sua correlação com a variável dependente Qualidade é de -0,17 e é considerada fraca. Portanto, não será avaliada.


Potencial Hidrogeniônico - pH

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.740   3.210   3.310   3.311   3.400   4.010
## [1] "Correlação de pH com a Qualidade:  -0.0577313912053821"

A variável de Potencial Hidrogeniônico tem distribuição normal.

Sua correlação com a variável dependente Qualidade é de -0,06 e é considerada desprezível. Portanto, não será avaliada.


Sulfatos - sulphates

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.3300  0.5500  0.6200  0.6581  0.7300  2.0000
## [1] "Correlação de Sulfatos com a Qualidade:  0.251397079069261"

A variável de Sulfatos tem distribuição log-normal com long tail e muitas exceções.

Sua correlação com a variável dependente Qualidade é de 0.25 e é considerada moderada. Portanto, será avaliada.


Álcool - alcohol

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.40    9.50   10.20   10.42   11.10   14.90
## [1] "Correlação de Álcool com a Qualidade:  0.476166324001136"

A variável de Álcool tem distribuição próxima de log-normal enviesada para a direita com poucas exceções.

Sua correlação com a variável dependente Qualidade é de 0.48 e é considerada moderada. Portanto, será avaliada.

Análise Univariada

Qual é a estrutura do conjunto de dados?

## 'data.frame':    1599 obs. of  14 variables:
##  $ X                   : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ fixed.acidity       : num  7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
##  $ volatile.acidity    : num  0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
##  $ citric.acid         : num  0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
##  $ residual.sugar      : num  1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
##  $ chlorides           : num  0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
##  $ free.sulfur.dioxide : num  11 25 15 17 11 13 15 15 9 17 ...
##  $ total.sulfur.dioxide: num  34 67 54 60 34 40 59 21 18 102 ...
##  $ density             : num  0.998 0.997 0.997 0.998 0.998 ...
##  $ pH                  : num  3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
##  $ sulphates           : num  0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
##  $ alcohol             : num  9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
##  $ quality             : int  5 5 5 6 5 5 5 7 7 5 ...
##  $ category            : Factor w/ 3 levels "ruim","bom","excelente": 2 2 2 2 2 2 2 2 2 2 ...

Adicional ao que é exibido na função str(), de acordo com o arquivo wineQualytiInfo.txt obtido do repositório da Udacity no endereço https://s3.amazonaws.com/udacity-hosted-downloads/ud651/wineQualityInfo.txt, o conjunto de dados tem a seguinte estrutura de variáveis:

Input variables (based on physicochemical tests):

  1. fixed acidity (tartaric acid - g / dm^3)
  2. volatile acidity (acetic acid - g / dm^3)
  3. citric acid (g / dm^3)
  4. residual sugar (g / dm^3)
  5. chlorides (sodium chloride - g / dm^3
  6. free sulfur dioxide (mg / dm^3)
  7. total sulfur dioxide (mg / dm^3)
  8. density (g / cm^3)
  9. pH
  10. sulphates (potassium sulphate - g / dm3)
  11. alcohol (% by volume)

Output variable (based on sensory data):

  1. quality (score between 0 and 10)

Quais são os principais atributos de interesse deste conjunto de dados?

QUALITY é o atributo principal, pois ele define a qualidade do vinho baseado nos outros fatores.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.000   5.000   6.000   5.636   6.000   8.000

Quais outros atributos você acha que podem lhe auxiliar na investigação destes atributos de interesse?

Correlação das variáveis independentes da variável dependente quality

variável correlação
fixed.acidity 0.12
volatile.acidity -0.39
citric.acid 0.23
residual.sugar 0.01
chlorides -0.13
free.sulfur.dioxide -0.05
total.sulfulr.dioxide -0.19
density -0.17
pH -0.06
sulphates 0.25
alcohol 0.48

De acordo com a tabela acima, não temos nenhuma variável com uma correlação forte.

Com base nos valores de correlação obtidos, os atributos que podem auxiliar a investigação são:

  1. ALCOHOL
  2. VOLATILE.ACIDITY
  3. SULPHATES
  4. CITRIC.ACID

Você criou novas variáveis a partir dos atributos existentes no conjunto de dados?

Foi criada a variável category, conforme descrito acima para classificar os vinhos em ruins, bons e excelentes.

Dos atributos investigados, distribuições incomuns foram encontradas? Você aplicou operações nos dados para limpá-los, ajustá-los ou mudar a forma dos dados? Se sim, por quê?

Foram encontradas as seguintes variáveis com distribuição normal (ou bem próximas):

  • volatile.acidity
  • free.sulfur.dioxide
  • density
  • pH
  • quality

As variáveis a seguir têm distribuição log-normal (ou bem próximas)

  • fixed.acidity
  • total.sulfur.dioxide
  • residual.sugar
  • chlorides
  • sulphates
  • alcohol

A variáveis a seguir têm distribuição não normal

  • citric.acid

Não houve necessidade de ajustes ou formatação dos dados, por serem todos numéricos.

Seção de Gráficos Bivariados

Análise das quatro variáveis com maior correlação com a variável quality.

O diagrama a seguir mostra a influência que cada uma das variáveis selecionadas exerce na qualidade dos vinhos e são agrupadas nas notas que cada vinho recebeu e também são destacadas nas categorias excelente, bom e ruim.


Influência dos componentes na qualidade dos vinhos

Álcool - melhores qualidades de vinhos observadas quando o teor alcoólico é mais alto, acima de 10% do volume.

Entretanto, há uma inversão com vinhos categorizados como bons, porém com qualidade 5. Vinhos com qualidade inferior (3 e 4) possuem teores alcoólicos acima.


Acidez Volátil - a quantidade apresentada desse componente é inversamente proporcional à qualidade. Vinhos com presença de ácido acético abaixo de 0.6 g/dm^3 são de melhor qualidade.


Sulfatos - índices maiores de presença de sulfato de potássio melhoram a qualidade do vinho. Valores acima de 0.6 g/dm^3 já estão presentes nas categorias dos vinhos bons.


Ácido Cítrico - semelhante ao sulfato de potássio, maiores índices dessa substância são encontradas em vinhos bons, em geral, valores acima de 0.25 g/dm^3.


Analisando outras correlações com os itens tidos como não de interesse

Analisando os fatores que foram descartados da primeira análise podemos identificar se existe entre eles alguma correlação forte. O diagrama a seguir mostra todas essas correlações.

Matriz de correlação

Análise Bivariada

Discuta sobre alguns dos relacionamentos observados nesta parte da investigação. Como os atributos de interesse variaram no conjunto de dados?

Conforme observado na seção Influência dos componentes na qualidade dos vinhos, melhores vinhos têm:

  • Mais altos teores alcoólicos
  • Menores índices de acidez volátil
  • Maiores índices de sulfatos
  • Maiores índices de ácido cítrico

Você observou algum relacionamento interessante entre os outros atributos (os que não são de interesse)?

Dos atributos que não foram selecionados para a análise, foram encontradas duas correlações fortes:

  • pH vs fixed.acidity –> correlação = -0.683
  • density vs pH –> correlação = 0.668

Os atributos pH e fixed.acidity não parecem muito relevantes, porque os dois se relacionam com alcalinidade dos vinhos. Não há vinho tendendo a ser ácido.

Todos são alcoólicos. O próprio fator pH tem correlação muito fraca com a qualidade, da ordem de -0.06.

Qual foi o relacionamento mais forte encontrado?

O maior correlacionamento encontrado entre os itens de interesse foi:

  • alcohol vs quality = 0.48

O maior correlacionamento encontrado entre os itens de não interesse foi:

  • pH vs fixed.acidity = 0.68

Seção de Gráficos Multivariados

A análise bivariada dos fatores “de não interesse” não trouxe nenhuma tendência significativa e, portanto, esses fatores foram descartados.

A partir dessa observação, o estudo segue analisando os 4 primeiros fatores que já tinham sido escolhidos como “de interesse”.

Estudamos, a seguir, a correlação entre esses fatores. Para isso serão utilizados gráficos de disperção com a apresentação da linha de tendência. Dessa forma é possível uma interpretação visual dos resultados.

A inclinação da linha de tendência indica a correlação. Quanto mais inclinada, maior é a correlação entre os fatores analisados.

Correlação Álcool vs. Acidez Volátil é fraca (-0.202). Não será considerada na análise.


Correlação Álcool vs. Sulfatos é muito fraca (0.094). Não será considerada na análise.


Correlação Álcool vs. Ácidos Cítricos é muito fraca (0.110). Não será considerada na análise.


Correlação Acidez Volátil vs. Sulfatos é mediana (-0.261). Será discutida na seção seguinte.


Correlação Acidez Volátil vs. Ácidos Cítricos é forte (-0.552). Será discutida na seção seguinte.


Correlação Sulfatos vs. Ácidos Cítricos é mediana (0.313). Será discutida na seção seguinte.


Análise Multivariada

Discuta sobre os relacionamentos observados nesta parte da investigação. Quais atributos que fortaleceram os demais na observação das variáveis de interesse?

  • O percentual alcoólico é o índice que mais contribui com a qualidade de um vinho. Em geral, bons vinhos tem um teor alcoólico entre 9.5 e 14.
  • Sulfatos e ácidos cítricos também contribuem com a qualidade do vinho quando seus valores são mais altos.
  • A acidez volátil é prejudicial à qualidade do vinho, pois quanto menores os índices encontrados desse elemento, maior a qualidade do vinho.

Interações surpreendentes e/ou interessantes foram encontradas entre os atributos?

Calculando-se a correlação entre os fatores de interesse e analisando os gráficos anteriores observa-se que, associado ao percentual alcoólico, também temos que bons vinhos apresentam os seguintes índices:

  • Acidez Volátil entre 0.3 e 0.8 g/dm^3 (melhor nos menores índices)
  • Sulfatos entre 0.5 e 0.75 g/dm^3 (melhor nos maiores índices)
  • Ácidos Cítricos entre 0.0 e 0.5 g/dm^3 (melhor nos maiores índices)

Os gráficos de disperção com a linha de tendência confirmam o que foi apresentado na seção de Gráficos Bivariados no diagrama com os gráficos de BoxPlot.

OPCIONAL: Modelos foram criados usando este conjunto de dados? Discuta sobre os pontos fortes e as limitações do seu modelo.


Gráficos Finais e Sumário

Primeiro Gráfico

Descrição do Primeiro Gráfico

Esse primeiro gráfico é o elemento que guia todo o estudo do dataset porque nele encontramos distribuídos os vinhos em uma escala de qualidade e agrupados por categorias.

Os vinhos são classificados em notas de 0 a 10 e agrupados em 3 categorias, excelente, bom e ruim.

Mostrando a variação do fator mais importante, o teor alcoólico é o elemento que mais contribui na qualidade do vinho.


Segundo Gráfico

Descrição do Segundo Gráfico

Mostrando a variação do fator mais importante, o teor alcoólico é o elemento que mais contribui na qualidade do vinho.

Vinhos de melhor qualidade apresentam teores alcoólicos maiores.

Apesar de vinhos de qualidade inferior terem a mediana do teor alcoólico levemente superior aos vinhos da primeira categoria de bons (com notas = 5), outros fatores associados influenciam nesse resultado. Portanto, a tendência de maiores índices de álcool iniciando em vinhos com nota 5 indica que são diretamente proporcionais.


Terceiro Gráfico

Descrição do Terceiro Gráfico

Por fim, a apresentação dos 4 fatores fortes, também classificados pelas notas e agrupados pelas categorias.

Nesse diagrama temos a representação gráfica da conclusão apresentada na seção de Análise Multivariada, onde foram discutidas as correlações entre esses fatores e como eles influenciam na qualidade do vinho.


Reflexão

Resumo dos pontos encontrados na análise

Analisando o dataset de Qualidade de Vinhos Tintos, logo no primeiro contato foi possível identificar que o fator denominado quality (qualidade) seria o fator que guiaria todas as outras análises. Estudando a variável quality com um pouco mais de profundidade, observa-se que a nota dos vinhos está distribuída em uma escala de 0 a 10 e para o conjunto de dados estudado temos amostras com notas variando de 3 a 8. Assim, para não ter apenas a nota como referência, os vinhos foram categorizados de acordo com suas notas em:

Categorias dos vinhos

nota categoria
de 0 a 4 ruim
de 5 a 7 bom
de 8 a 10 excelente

Seguindo esse raciocínio, o próximo passo foi entender como os outros fatores influenciam na qualidade do vinho. Para fazer isso foram calculadas as correlações de todos os outros fatores com relação ao fator de qualidade. O que se descobriu nesse ponto é que 4 fatores têm maior influência na qualidade dos vinhos do que o restante.

Fatores relevantes para definir a qualidade do vinho

A análise mostrou que os seguintes fatores e suas respectivas correlações com a variável quality influenciam significativamente na qualidade dos vinhos:

fator correlação
alcohol 0.48
volatile.acidity -0.39
sulphates 0.25
citric.acid 0.23

Uma vez encontrados os fatores mais fortes que determinam a qualidade dos vinhos, foi realizado um outro estudo, agora com os fatores inicialmente descartados, por terem menores correlações com a variável quality.

Correlações secundárias encontradas

Dos fatores inicialmente descartados, duas correlações chamaram a atenção;

fator 1 fator 2 correlação
pH fixed.acidity -0.683
density pH 0.668

Apesar de terem correlação forte, esses fatores não foram estudados por estarem intimamente ligados à alcalinidade do vinho. Essa conclusão baseou-se por se tratar de um elemento substancialmente de pH alcoólico e também por motivo de o pH ter correlação baixíssimo com o fator quality.

Conclusão

Segundo o estudo do dataset pode-se concluir que um vinho de boa qualidade apresenta os seguintes fatores e valores:

fator faixa de qualidade observação
Álcool entre 9.8 e 12.2 % melhor nos maiores índices
Acidez Volátil entre 0.3 e 0.8 g/dm^3 melhor nos menores índices
Sulfatos entre 0.5 e 0.75 g/dm^3 melhor nos maiores índices
Ácidos Cítricos entre 0.0 e 0.5 g/dm^3 melhor nos maiores índices

As afirmações acima podem ser comprovadas nos gráficos apresentados na seção do Segundo Gráfico acima.


Algumas limitações observadas

Alta concentração de vinhos na categoria bom

O dataset é pobre em amostragens de vinhos com notas mais baixas (0 a 4) e nas mais altas (8 a 10). Para uma melhor confiabilidade do estudo seria mais interessante que o dataset trouxesse uma distribuição de notas com uma representatividade maior dos vinhos ruins e dos excelentes.

Ausência de correlação forte

Dos 4 fatores mais fortes estudados, nenhum deles tem realmente uma grande correlação com a qualidade. Todos estão abaixo de 0.5. Todo o estudo seguiu baseado em correlações de moderadas a baixas.


Ações para melhoria desse estudo

Uma melhoria desse dataset pode trazer resultados mais relevantes se fossem incluídas algumas outras variáveis. #### Ausência de algumas variáveis

  • Temperatura Estudiosos e apreciadores de vinho costumam recomendar um range de temperaturas que consideram ideias para apreciar quada tipo de vinho.

  • Qualidade da uva Com as variedades de uvas já estabelecidas com os produtores, esse fator deveria estar presente no dataset.

  • País de origem Os mesmos tipos de vinhos, com as mesmas características e usando as mesmas uvas podem trazer resultados diferentes se forem produzidos em outros países, porque sofrem influência de clima, solo, pressão atmosférica e até fatores culturais nos processos de fabricação.